ÇeVeri - Klasik Veri Setleri

Giriş

Yayla takımı olarak ÇeVeri’yi kullanarak oluşturduğumuz, doğal dil işleme çalışmalarında sıklıkla kullanılmaları sonucu birer standart haline gelmiş, toplamda 21 adet veri setini Türkçe’ye kazandırmanın ve geliştiricilerle paylaşmanın gururunu yaşıyoruz.

Türkçe Doğal Dil İşlemeye Sunulan Katkı

ÇeVeri’yi kullanarak Türkçe’ye kazandırdığımız veri setleri toplam 34 eşsiz görev üzerinde kullanılmakta olup toplamda 473MB’ın üzerinde alan kaplamaktadır. Çevrilen veri seri setleri arasında bilgisayarlı biyoloji (computational biology), görsel açıklama (image captioning), duygu tespiti (emotion recognition) gibi daha önce Türkçe veri barındırmayan alanlarda kullanılan veri setleri de yer almaktadır. Tüm bunlarla birlikte, Türkçe doğal dil işlemeye kazandırdığımız veri setleri, etki faktörü yüksek konferanslarda ve dergilerde yayınlanmış, seçkin kurumlar tarafından hazırlanmış ve akademide ve endüstride birer standart ve temel haline gelmiş veri setleri arasından seçilmiştir.

Gelecek Planlarımız ve Hedeflerimiz

ÇeVeri - Klasik Veri Setleri girişimimizin ilk basamağında Türkçe doğal dil işlemeye 21 adet veri seti kazandırarak güzel bir başlangıç yapmış olduğumuzu düşünsek de bu sayının yeterli olmadığı kanaatindeyiz. Gelecek planlarımız arasında varlık ilişkilendirme (entity linking), kod üretimi (code generation), bilgi grafikleri (knowledge graphs) gibi görevler üzerine odaklanan veri setlerini Türkçeye kazandırarak bu sayıyı arttırmak yer alıyor.

SQuAD 2.0

Kullanıldığı Görevler: Question Answering, Question Generation

Yayınlandığı Makale: SQuAD: 100,000+ Questions for Machine Comprehension of Text

Yayınlandığı Yıl: 2016

Yayınlandığı Konferans: EMNLP

Aldığı Atıf Sayısı: 4801

Nicelik: +100 bin soru

Boyut: +72MB

Geliştirici Kurum: Stanford Üniversitesi

IMDB Movie Reviews

Kullanıldığı Görevler: Text Classification, Sentiment Analysis, SQL Parsing

Yayınlandığı Makale: Learning Word Vectors for Sentiment Analysis

Yayınlandığı Yıl: 2011

Yayınlandığı Konferans: ACL

Aldığı Atıf Sayısı: 3806

Nicelik: +50 bin film incelemesi

Boyut: +85MB

Geliştirici Kurum: Stanford Üniversitesi

CoLA

Kullanıldığı Görevler: Linguistic Acceptability, Text Generation

Yayınlandığı Makale: Neural Network Acceptability Judgments

Yayınlandığı Yıl: 2019

Yayınlandığı Konferans: TACL

Aldığı Atıf Sayısı: 568

Nicelik: +10500 cümle

Boyut: +500KB

Geliştirici Kurum: New York Üniversitesi + Facebook AI

CNN Stories

Kullanıldığı Görevler: Abstractive Text Summarization, Document Summarization, Seq-to-Seq Language Modeling, Question Answering, Text Summarization, Extractive Text Summarization, Summarization

Yayınlandığı Makale: Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond

Yayınlandığı Yıl: 2016

Yayınlandığı Konferans: CONLL

Aldığı Atıf Sayısı: 1800

Nicelik: +39 bin makale

Boyut: +175MB

Geliştirici Kurum: Montreal Üniversitesi + IBM Watson

DailyDialog

Kullanıldığı Görevler: Emotion Recognition in Conversation

Yayınlandığı Makale: DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset

Yayınlandığı Yıl: 2017

Yayınlandığı Konferans: IJCNLP

Aldığı Atıf Sayısı: 642

Nicelik: +13 bin diyalog

Boyut: +6.7MB

Geliştirici Kurum: Hong Kong Politeknik Üniversitesi + Saarland Üniversitesi

ATIS

Kullanıldığı Görevler: Intent Detection, Slot Filling, Semantic Parsing, SQL Parsing

Yayınlandığı Makale: The ATIS Spoken Language Systems Pilot Corpus

Yayınlandığı Yıl: 1990

Yayınlandığı Konferans: HLT

Aldığı Atıf Sayısı: 716

Nicelik: +4750 cümle

Boyut: +3.8MB

Geliştirici Kurum: Texas Instruments

SICK

Kullanıldığı Görevler: Semantic Textual Similarity, Semantic Similarity, Natural Language Inference

Yayınlandığı Makale: A SICK Cure for the Evaluation of Compositional Distributional Semantic Models

Yayınlandığı Yıl: 2014

Yayınlandığı Konferans: LREC

Aldığı Atıf Sayısı: 885

Nicelik: +4900 cümle

Boyut: +1.9MB

Geliştirici Kurum: Trento Üniversitesi

DROP

Kullanıldığı Görevler: Question Answering

Yayınlandığı Makale: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

Yayınlandığı Yıl: 2019

Yayınlandığı Konferans: NAACL

Aldığı Atıf Sayısı: 384

Nicelik: +96 bin soru cevap çifti

Boyut: +64MB

Geliştirici Kurum: Kaliforniya Üniversitesi, Irvine + Washington Üniversitesi + Allen Institute for Artificial Intelligence

ROCStories

Kullanıldığı Görevler: Question Answering, Emotion Classification

Yayınlandığı Makale: A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories

Yayınlandığı Yıl: 2016

Yayınlandığı Konferans: NAACL

Aldığı Atıf Sayısı: 434

Nicelik: +100 bin hikaye

Boyut: +13MB

Geliştirici Kurum: Rochester Üniversitesi + Microsoft Research + Virginia Tech

COPA

Kullanıldığı Görevler: Question Answering, Zero-Shot Learning, Text Generation

Yayınlandığı Makale: Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning

Yayınlandığı Yıl: 2011

Yayınlandığı Konferans: AAAI

Aldığı Atıf Sayısı: 246

Nicelik: 1000 soru cevap çifti

Boyut: +248KB

Geliştirici Kurum: Indiana Üniversitesi + Güney Kaliforniya Üniversitesi

ActivityNet Captions

Kullanıldığı Görevler: Dense Video Captioning, Video Captioning, Natural Language Moment Retrieval

Yayınlandığı Makale: Dense-Captioning Events in Videos

Yayınlandığı Yıl: 2017

Yayınlandığı Konferans: ICCV

Aldığı Atıf Sayısı: 687

Nicelik: 100 bin açıklama (caption)

Boyut: +8MB

Geliştirici Kurum: Stanford Üniversitesi

BIOSSES

Kullanıldığı Görevler: Sentence Embeddings for Biomedical Texts, Semantic Similarity

Yayınlandığı Makale: BIOSSES: a Semantic Sentence Similarity Estimation System for the Biomedical Domain

Yayınlandığı Yıl: 2017

Yayınlandığı Konferans: Bioinformatics

Aldığı Atıf Sayısı: 108

Nicelik: 100 cümle

Boyut: +29KB

Geliştirici Kurum: Boğaziçi Üniversitesi + Yapı Kredi Teknoloji

Boolean Questions

Kullanıldığı Görevler: Question Answering

Yayınlandığı Makale: BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

Yayınlandığı Yıl: 2019

Yayınlandığı Konferans: NAACL

Aldığı Atıf Sayısı: 252

Nicelik: +15 bin soru cevap çifti

Boyut: +9MB

Geliştirici Kurum: Washington Üniversitesi

ChemProt

Kullanıldığı Görevler: Relation Extraction

Yayınlandığı Makale: -

Yayınlandığı Yıl: -

Yayınlandığı Konferans: -

Aldığı Atıf Sayısı: -

Nicelik: 1820 makale

Boyut: +2MB

Geliştirici Kurum: BioCreative

Conceptual Captions

Kullanıldığı Görevler: Image Captioning

Yayınlandığı Makale: Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning

Yayınlandığı Yıl: 2018

Yayınlandığı Konferans: ACL

Aldığı Atıf Sayısı: 721

Nicelik: 20 bin açıklama (caption)

Boyut: +12MB

Geliştirici Kurum: Google AI

GoEmotions

Kullanıldığı Görevler: Text Classification, Emotion Classification

Yayınlandığı Makale: GoEmotions: A Dataset of Fine-Grained Emotions

Yayınlandığı Yıl: 2020

Yayınlandığı Konferans: ACL

Aldığı Atıf Sayısı: 150

Nicelik: +58 bin örnek

Boyut: +4MB

Geliştirici Kurum: Stanford Üniversitesi + Google Research + Amazon Alexa

Hate Speech Detection Dataset

Kullanıldığı Görevler: Text Classification

Yayınlandığı Makale: Hate Speech Dataset from a White Supremacy Forum

Yayınlandığı Yıl: 2018

Yayınlandığı Konferans: WS

Aldığı Atıf Sayısı: 224

Nicelik: 10 bin cümle

Boyut: +1MB

Geliştirici Kurum: Vicomtech

HoC

Kullanıldığı Görevler: Document Classification

Yayınlandığı Makale: Automatic Semantic Classification of Scientific Literature According to the Hallmarks of Cancer

Yayınlandığı Yıl: 2016

Yayınlandığı Konferans: Bioinformatics

Aldığı Atıf Sayısı: 58

Nicelik: 1852 yayın özeti (publication abstact)

Boyut: +1MB

Geliştirici Kurum: Cambridge Üniversitesi + Karolinska Enstitüsü

Jester

Kullanıldığı Görevler: Action Recognition, Action Classification

Yayınlandığı Makale: Eigentaste: A Constant Time Collaborative Filtering Algorithm

Yayınlandığı Yıl: 2001

Yayınlandığı Konferans: Information Retrieval Journal

Aldığı Atıf Sayısı: 2078

Nicelik: 158 farklı şakanın 6.5 milyon oylaması

Boyut: +3MB

Geliştirici Kurum: Kaliforniya Üniversitesi, Berkeley

LIAR

Kullanıldığı Görevler: Fake News Detection

Yayınlandığı Makale: “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News Detection

Yayınlandığı Yıl: 2017

Yayınlandığı Konferans: ACL

Aldığı Atıf Sayısı: 1122

Nicelik: 13 bin bildiri/açıklama

Boyut: +1MB

Geliştirici Kurum: Kaliforniya Üniversitesi, Santa Barbara

OpenBookQA

Kullanıldığı Görevler: Question Answering

Yayınlandığı Makale: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering

Yayınlandığı Yıl: 2018

Yayınlandığı Konferans: EMNLP

Aldığı Atıf Sayısı: 247

Nicelik: 6 bin çoktan seçmeli soru cevap

Boyut: +5MB

Geliştirici Kurum: Heidelberg Üniversitesi + Allen Institute for Artificial Intelligence